Ottimizzazione Convessa: Dalla Verosimiglianza Statistica ai Problemi Convessi

L'inferenza statistica chiede: "Dati questi dati, quali sono i parametri più probabili?" Questa diapositiva collega questa domanda con Ottimizzazione Convessa. Trasformiamo il concetto probabilistico di verosimiglianza in un programma strutturato, mostrando che sotto condizioni di log-concavità, trovare la migliore stima è equivalente a risolvere un problema di ottimizzazione convessa.

Il Quadro della Verosimiglianza

La funzione di verosimiglianza è la distribuzione di probabilità $p_x(y)$ considerata come funzione del parametro $x$ per un campione osservato fisso $y$. Per stimare $x$, utilizziamo stima della massima verosimiglianza (ML): scegliendo il valore che rende i dati osservati più probabili.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Per efficienza computazionale, utilizziamo la funzione di log-verosimiglianza, $l(x) = \log p_x(y)$. Poiché il logaritmo è una funzione strettamente crescente, preserva la posizione del massimo trasformando i prodotti (da osservazioni indipendenti) in somme facilmente gestibili.

Il Programma di Ottimizzazione della MLE (7.1)

Formalizziamo la stima come un programma matematico:

$$\begin{array}{ll} \text{massimizza} & l(x) = \log p_x(y) \\ \text{soggetto a} & x \in C \end{array}$$ (7.1)

Questo programma è un problema di ottimizzazione convesso se:

La funzione di log-verosimiglianza $l$ è concava per ogni valore di $y$.
L'insieme ammissibile $C$ (informazione a priori) è descritto da vincoli di uguaglianza lineari e vincoli di disuguaglianza convessi.

Integrazione di Vincoli e Informazioni A Priori

La stima della massima verosimiglianza richiede di ridefinire $p_x(y)$ come zero per $x \notin C$ per imporre esplicitamente vincoli fisici o a priori. Nello spazio dell'ottimizzazione, ciò significa che la funzione di log-verosimiglianza viene assegnata il valore $-\infty$ per i parametri $x$ che violano questi vincoli, creando così un ostacolo insormontabile per l'ottimizzatore.

🎯 Principio Fondamentale

La transizione da "Massima Verosimiglianza" a "Programma Convesso" si basa sulla concavità della densità logaritmica. Se il rumore o la distribuzione è log-concava, l'analisi statistica diventa un problema di ottimizzazione risolvibile globalmente.

DOMANDA 1

Perché la funzione di log-verosimiglianza $l(x)$ è preferita alla funzione di verosimiglianza $p_x(y)$ nell'ottimizzazione?

Cambia la posizione del massimo in un punto più stabile.

È una funzione strettamente crescente che trasforma prodotti in somme.

Garantisce che il problema sia sempre lineare.

Elimina la necessità di vincoli.

DOMANDA 2

In quali condizioni il problema della MLE (7.1) è considerato un problema di ottimizzazione convesso?

Quando $p_x(y)$ è una funzione lineare di $x$.

Quando $l(x)$ è convessa e $C$ è qualsiasi insieme.

Quando $l(x)$ è concava e $C$ è definito da uguaglianze lineari e disuguaglianze convessi.

Solo quando il rumore è gaussiano.

DOMANDA 3

Se un parametro $x$ viola un vincolo a priori ($x \notin C$), quale valore viene assegnato al log-verosimiglianza?

$+\infty$

$-\infty$

DOMANDA 4

Vero o Falso: La MLE per una densità log-concava con vincoli convessi ha sempre un massimo globale unico se esiste.

Vero

Falso

DOMANDA 5

Considera una distribuzione esponenziale con parametro $\lambda$. Se sappiamo che $\lambda \ge 5$ ma i dati suggeriscono $\lambda = 2$, dove sarà la MLE vincolata?

A $\lambda = 2$

A $\lambda = 5$

Il problema non ha soluzione.

A $\lambda = 0$